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摘要 :， 现 代 大 型 天 文 望远镜 的 控制 一 般 由 多 台独 立 〈 或 组 成 集群 ) 的 计算 机 来 完成 。 这 些 计 算 机 的 
性 能 、 效 率 与 可 靠 性 直接 影响 整个 望远镜 的 稳定 运行 。 因 此 ， 需 要 研制 一 套 实时 对 各 控制 计算 机 节点) 
硬件 资源 信息 进行 采集 、 存 储 、 监 控 的 软件 系统 ， 并 提供 一 定 的 预警 功能 。 这 样 的 系统 可 以 有 效 排除 隐患 
进而 提高 望远镜 整体 观测 运行 效率 。 本 文 在 深入 分 析 LAMOST 望远镜 观测 运行 需求 的 基础 上 ， 采 用 异步 协 
~ FERR, 设计 和 开发 了 一 套 基 于 Python 语言 的 硬件 资源 监控 系统 软件 ， 系 统 可 以 高 效 稳定 地 采集 获取 计 自 
^ 机 各 种 状态 , 也 可 以 获得 相应 部 件 的 实时 信息 , 并 提供 了 多 种 人 机 交互 方式 , 为 后 续 开发 提供 了 扩展 接口 。 
该 系统 部 署 于 LAMOST 环境 中 ， 实 际 运行 表明 整个 系统 取得 了 较 好 的 效果 。 
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大 天 区 面积 多 目标 光纤 光谱 天 文 望远镜 (Large Sky Area Multi-Object Fiber Spectroscopy 
Telescope，LAMOST) 也 叫 郭守敬 望远镜 是 一 台 自 主 研发 的 主动 反射 施 密 特 装 置 ， 兼 顾 大 口径 
与 大 视 场 ， 运 用 并 行 控制 技术 使 之 可 以 同时 跟踪 多 达 4000 个 观测 目标 ， 是 天 文学 界 光 谱 获 
取 率 最 高 的 天 文 望远镜 上 由 。 郭 守 敬 望远镜 于 2008 年 10 月 正式 落成 ， 到 目前 为 止 ， 已 观测 、 
生产 和 发 布 天 文 光谱 超过 900 万 条 +。 

郭守敬 望远镜 设计 新 颖 ， 结 构 复 杂 ， 由 观测 控制 系统 、 主 动 光学 系统 、 巡 天 战略 系统 、 
= 数据 处 理 系统 等 8 个 子 系统 构成 。 作 为 现代 大 型 天 文 设备 , 每 个 子 系统 都 离 不 开 计 算 机 的 控 
FT 制 。 观 测 期 间 ， 多 达 上 百 台 的 计算 机 组 成 了 一 个 庞大 的 计算 机 集群 中 。 集 群 中 的 各 计算 机 节 
点 (尤其 是 关键 节点 ) 的 性 能 、 效 率 和 稳定 性 等 因素 直接 影响 整个 望远镜 的 运行 效率 。 对 集群 
中 各 节点 计算 机 资源 的 监视 、 预 警 和 管理 是 一 项 繁重 、 困 难 但 又 必 不 可 少 的 工作 。 

本 文正 是 在 这 样 的 背景 下 开展 相应 的 研究 工作 , 在 深入 分 析 工 程 环境 和 工程 需求 的 基础 
E, AH Python 异步 协 程 技术 ， 设 计 和 开发 了 一 套 大 型 望远镜 计算 机 集群 的 硬件 资源 信息 
监控 系统 ， 并 部 署 于 郭守敬 望远镜 的 工作 环境 。 

1 需求 分 析 与 工具 选择 

郭守敬 望远镜 使 用 的 计算 机 不 仅 数量 众多 ， 而 且 计算 机 之 间 的 软 硬 件 差异 也 十 分 明显 。 
在 设备 类 型 方面 既 有 性 能 优越 的 大 型 刀片 服务 器 、 工 作 站 ， 又 有 适应 各 种 恶劣 环境 的 工控 
机 以 及 适合 工作 人 员 操 作 的 台式 机 。 在 分 布 位 置 方 面 ， 数 据 服务 式 计 算 机 (如 : 数据 存储 服 


务 器 、 数 据 传输 设备 等 ) 安 置 于 专业 机 房 中 ， 人 机 交互 式 台 式 机 安置 于 观测 控制 室 ， 硬 件 驱 
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动 式 计算 机 (如 相机 控制 集群 、 机 架 焦 面 控制 机 等 ) 安 置 于 望远镜 主体 建筑 内 ， 辅 助 服务 式 计 
算 机 (如 气象 站 部 分 室外 机 、DIMM 等 ) 则 放置 在 室外 。 从 操作 系统 分 类 来 讲 ， 目 前 集群 中 各 
节点 计算 机 采用 的 操作 系统 包括 了 Windows 系列 、Linux (RedHat 或 Ubuntu) 以 及 Apple 
MacOS 等 。 
对 类 型 众多 、 位 置 复 杂 、 操 作 系统 异 构 的 大 型 望远镜 控制 计算 机 集群 ， 节 点 计算 机 的 
硬件 资源 信息 监视 和 管理 工作 完全 由 人 工 逐 节点 实现 , 不 但 工作 效率 低下 , 而 且 极其 容易 出 
现 错 判 漏 判 等 情况 ， 从 而 影响 望远镜 的 使 用 

显而易见 , 对 于 现代 大 型 望远镜 ， 构建 一 套 硬件 资 源 监 控 软件 系统 完成 对 集群 中 各 种 节 
点 (尤其 是 关键 节点 ) 计 算 机 的 资源 与 状况 的 采集 、 存 储 、 监 控 和 分 析 处 理 是 非常 重要 的 。 

在 工程 领域 ， 开 源 的 计算 机 集群 资源 监控 软件 主要 有 Cacti, Nagios. Zabbix 等 B5， 均 
在 各 种 应 用 领域 起 到 了 重要 作用 。 但 是 ，Cacti 更 倾向 于 单一 的 网 络 资源 监视 功能 而 不 能 全 
面 地 监视 各 节点 的 状态 。Nagios 和 Zabbix 均 可 以 全 面 监视 各 节点 资源 状态 并 且 提供 报警 机 
制 和 插件 模板 等 技术 。 但 是 由 于 是 通用 性 资源 监视 系统 ， 两 者 配置 比较 繁琐 ， 再 开发 难度 较 
大 ， 难 于 整合 到 郭守敬 望远镜 现 有 的 观测 控制 系统 中 。 因 此 ， 基 于 工程 需求 ， 需 要 开发 一 套 
_ 适合 郭守敬 望远镜 的 计算 机 集群 资源 监视 系统 。 
> 为 了 保证 良好 的 可 用 性 和 稳定 性 , 硬件 资源 监控 系统 应 采用 分 层 方式 设计 和 开发 。 综合 
考虑 在 实际 工程 环境 中 的 诸多 因素 , 系统 应 分 为 信息 采集 与 传输 层 、 信息 接收 与 处 理 层 以 及 
言 息 展 示 与 应 用 层 。 信息 采集 和 传输 层 充 分 考虑 节点 之 间 的 巨大 差异 ,以 及 传输 实现 方式 的 
统一 性 。 信息 的 接收 和 处 理 层 具备 较 好 的 接收 能 力 和 稳定 的 处 理 能 力 , 并 为 上 层 应 用 提供 解 
耦 的 接口 。 信 息 展 示 和 应 用 层 的 功能 应 该 模块 化 ， 从 而 达到 人 机 交互 的 灵活 性 和 友好 型 。 整 
套 系统 还 应 考虑 运行 效率 ， 不 应 给 各 节 反 以 及 整个 网 络 带 米 较 入 的 负载 。 

另外 , 为 了 更 好 地 服务 于 望远镜 的 运行 ,还 应 该 考虑 将 软件 融入 望远镜 的 软件 体系 之 中 。 
目前 望远镜 正在 尝试 采用 远程 望远镜 系统 第 2 版 (Remote Telescope System 2nd version, RTS2) 
#9 升级 原 有 的 观测 控制 系统 中 。 因 此 ， 资 源 监控 系统 需要 预 留 接口 以 供 RTS2 框架 使 用 。 
基于 以 上 工程 需求 分 析 ， 结合 望远镜 实际 工作 环境 ， 采 用 “客户 端 -服务 器 -应 用 ”的 架 
构 实 现 资源 监控 系统 。 在 编程 语言 方面 ， 选 择 通用 性 较 强 跨 平 台 能 力 出 众 的 Python 作为 主 
题 语言 ， 并 利用 Python 的 标准 库 ( 模 块 ) 以 及 实现 各 种 功能 的 第 三 方 库 。 

经 过 充分 调研 和 认真 和 划 选 ， 文 中 主要 涉及 以 下 Python 库 ( 模 块 ) 的 使 用 : 

psutil 模块 : 能 够 轻松 实现 获取 系统 运行 的 进程 和 系统 利用 率 (包括 CPU、 内 存 、 磁 盘 、 
网 络 等 ) 信息 ， 主 要 应 用 于 系统 监控 、 分 析 和 管理 领域 。 

Python 标准 库 的 asyncio 模块 : EEL 程 。 传 统 服务 器 端的 设计 大 多 采用 单 进 程 多 
路 IO 复 用 、 多 进程 ( 池 )、 多 线程 ( 池 ) 等 技术 ， 这 些 技术 对 提升 服务 器 端的 响应 效率 起 到 了 积 
极 的 作用 ， 但 以 上 技术 也 有 各 自 的 限制 和 缺陷 。 例 如 : 多 路 IO 复 用 技术 在 编写 大 型 服务 器 
处 理 程序 时 过 于 复杂 不 易 维 护 。 多 进程 技术 需要 占用 大 量 系统 资源 (占用 内 存 、 进 程 间 上 下 
文 切换 消耗 等 )， 并 且 进 程 间 通 信 实 现 过 程 较 复杂 。 多 线程 技术 相对 于 多 进程 技术 消耗 的 系 
统 资源 较 少 , 但 是 线程 间 同 步 、 竞 争 、 死 锁 等 问题 给 服务 器 设计 带 来 很 大 麻烦 。 协 程 是 一 种 
程序 开发 人 员 可 控 的 用 户 态 上 下 文 切换 技术 ， Wk 程 、 线 程 ， 协 程 更 加 轻 量 级 且 调 度 更 
加 灵活 ， 因 此 非常 适合 小 数据 量 、 逻 辑 简 单 、 发 的 网 络 通信 环境 。 在 Python 中 ， 协 程 
属于 较 新 引入 的 概念 Python 从 3.4 开始 支持 协 m. 3.5 引入 协 程 关键 字 (async/await) 和 语法 ， 
同时 提供 了 asyncio 标准 库 $。 

curio fe: 对 asyncio 模块 的 封装 库 ， 它 进一步 隐藏 了 事件 循环 和 复杂 回调 机 制 ， 还 提供 
了 Queue( 用 于 协 程 间 通信 )、SingalQueue( 用 于 系统 信号 处 理 )、run_in_process( 用 于 子 进程 调 


+ http://rts2.org 
§ https://docs.python.org/3/library/asyncio.html 
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度 )、run_in_thread( 用 于 子 线程 调度 ) 等 开发 工具 。 从 而 使 编写 异步 协 程 程序 更 加 简洁 安全 。 
PyZMQ JÆ: Python 版 的 ZMQ 通信 库 。ZMQ 基于 标准 socket， 进 一 步 开 发 了 上 层 协 议 ， 

提供 了 断 续 重 传 、 负 和 载 均 衡 、 发 布 /订阅 等 高 级 接口 。 适 合 大 型 软件 组 件 间 通信 的 解 契 ， 使 

之 更 加 稳定 。 

aiomysql 模块 :Python 的 异步 MySQL 数据 库 接口 模块 , 它 允 许 Python 应 用 程序 与 MySQL 

数据 库 之 间 的 异步 数据 交互 ， 同 时 还 提供 了 可 配置 的 线程 池 ， 以 提高 数据 库 的 操作 性 能 。 

2 设计 与 实现 

2.1 总 体 设计 

郭守敬 望远镜 资源 监控 软件 系统 总 体 分 为 3 层 : 信息 采集 器 (客户 端 )、 中 央 信 息 处 理 服 
务 器 以 及 上 层 应 用 模块 ， 如 图 1。 

部 署 在 郭守敬 望远镜 计算 机 集群 各 节点 计算 机 上 的 信息 采集 器 (客户 端 ) 根 据 默认 设置 
和 配置 文件 确定 信息 采集 间隔 时 间 以 及 本 节点 需要 采集 的 具体 信息 内 容 后 ,周期 性 地 采集 本 
节点 硬件 资源 信息 并 发 送 给 中 央 信 息 处 理 服 务 器 。 

中 央 信息 处 理 服务 器 接收 众多 客户 端 发 来 的 信息 ， 进 行 信息 处 理 (如 : 数据 验证 、 数 据 
分 析 、 数 据 存储 等 )， 并 通过 自身 的 服务 接口 向 上 层 应 用 模块 提供 数据 服务 。 

上 层 应 用 模块 可 以 有 多 个 ， 分 别 实现 不 同 的 功能 (如 图 形 界 面 人 机 交互 、 网 页 显示 、 接 
入 观测 控制 系统 、 数 据 详 细 分 析 统 计 等 )。 它 们 均 通 过 中 央 信 息 服 务 器 的 数据 提供 接口 获取 
数据 ， 然 后 这 些 数据 完成 自己 的 工作 。 

应 用 模块 和 中 央 信 息 处 理 服 务 器 相互 独立 , 不 规定 启动 先后 顺序 , 也 不 需要 在 同一 台电 
脑 上 运行 ， 最 大 程度 实现 系统 解 耦 ， 从 而 提高 系统 的 稳定 性 和 可 用 性 。 
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图 1 郭守敬 望远镜 资源 监控 系统 总 体 框架 
Fig. 1 The framework of Monitoring System for LAMOST resource 
2.2 客户 端 


客户 端 主要 责任 是 周期 性 采集 节点 系统 资源 信息 ， 将 信息 发 送 给 服务 器 。 
考虑 代码 的 简洁 性 和 易 维护 性 ， 选 取 Python 的 psutil 包 进 行 信息 采集 。 绝 大 多 数 节点 
计算 机 的 操作 系统 自 带 Python 解释 器 以 及 相应 包 。 对 于 未 安装 psutil 包 的 节点 采用 pip 安装 
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或 源码 安装 也 十 分 简易 。 极 个 别 节 点 无 法 安装 Python， 则 采用 C 语言 调用 原生 系统 库 接 
获取 信息 。 如 下 代码 为 客户 端 采 用 psutil 包 获 取 系 统 资源 的 部 分 代码 。 


import psutil as ps 


cpu = ps.cpu percent(interval-60) # 获取 CPU 使 用 率 ， 周 期 60 秒 
mem = ps.virtual memory() # 获取 内 存 使 用 率 
disk = ps.disk_usage( ‘/’ ) # 获取 挂 载 点 “/” 所 对 应 磁盘 分 区 使 用 情况 


nic in = ps.net io counters().bytes recv # 获取 网 卡 接收 字 节 数 
nic_out = ps.net io counters().bytes sent # 获取 网 卡 发 送 字 节 数 
procs = ps.pids() # 获取 进程 列表 


为 保证 信息 传输 的 通用 性 并 尽量 避免 在 各 节点 计算 机 上 安装 额外 软件 库 或 包 , 客户 端 信 
息 发 送 采 用 标准 的 TCP 通信 协议 ， 通 信 功 能 采用 Python 实现 : 设置 错误 容忍 阐 值 ， 将 采集 
言 息 和 发 送信 息 功 能 包 襄 在 循环 体 中 。 出 现 通 信 故 障 时 捕获 异常 错误 计数 器 自 增 1， 若 错误 
计数 器 未 到 闵 值 则 休眠 指定 时 间 后 重新 循环 ， 若 已 到 达 羡 值 则 结束 程序 释放 系统 资源 。 
2.3 服务 器 

中 央 信 息 处 理 服务 器 是 整套 系统 的 枢纽 ， 主 要 任务 有 两 个 :(1) 接收 大 量 客户 端 周期 性 
发 来 的 资源 信息 ; (2) 对 信息 进行 处 理 后 存 入 MySQL 数据 库 。 因 此 ， 对 其 运行 效率 和 稳定 
性 要 求 很 高 。 为 了 使 设计 思路 清晰 、 实 现代 码 简洁 ， 实 际 方案 采用 了 两 个 子 进程 ， 分 别 为 异 
步 消息 接收 器 子 进程 和 MySQL 异步 处 理 器 子 进程 。 中 央 信 息 处 理 服 务 器 内 部 结构 如 图 2。 


全 ^ 为 上 层 应 用 模块 提供 数据 = = 
‘ P. ; 


异步 消息 接收 器 2 MCzwosusbH o — MySQL 异步 处 理 器 


1 
1 
| I 
| 1 
| (  zMQ.PUBH ) | | 
| COMME | 
| Queue 3 \ Universal Queue | 
| Fi ia 人 | 
| Curio 事 件 循环 GS i, | 
| = L S Curio 事 件 循 环 | 
a" E sa NE 了 进程 了 进程 | 
| I 
i 中 央 信 息 处 理 服务 器 


socket 通 信 


多 个 客户 端 发 来 信息 
图 2 中 央 信 息 处 理 服务 器 内 部 结构 


Fig. 2 The internal structure of the central message handle server 

异步 消息 接收 器 子 进程 内 部 包含 TCP-Server 协 程 和 ZMQ.PUB 协 程 。TCP-Server 协 程 负 
责 处 理 节点 采集 器 (客户 端 ) 的 TCP 连接 申请 以 及 并 发 地 接收 多 客户 端 发 来 的 消息 。ZMQ.PUB 
协 程 负责 将 接收 的 消息 发 布 到 消息 总 线 上 ， 以 供 上 层 应 用 模块 使 用 。 两 者 之 间 采 用 curio 库 
的 Queue 实现 单线 程 内 不 同 协 程 之 间 的 异步 通信 ， 整 个 子 进程 由 curio 库 事 件 循 环 驱 动 。 

MySQL 异步 处 理 器 子 进程 内 包含 ZMQ.SUB 协 程 和 aiomysql 协 程 。ZMQ.SUB 协 程 负责 应 
消息 总 线 订阅 并 获取 消息 。aiomysql 协 程 负责 将 消息 异步 地 存储 到 MySQL 数据 库 。 由 于 
aiomysql 模块 必须 采用 标准 的 Python.asyncio 事件 循环 驱动 (curio 库 目 前 尚未 直接 提供 
aiomysql 模块 接口 )， 而 Python.asyncio 事件 循环 本 身 必须 独占 一 个 线程 ， 因 此 程序 在 实现 过 
程 中 需要 为 aiomysdl 协 程 创立 独立 的 子 线程 。 两 者 之 间 采 用 curio 库 的 Universal Queue 实现 
异步 通信 。 与 异步 消息 接收 器 中 使 用 的 Queue 不 同 ，curio 库 提 供 的 Universal Queue 可 以 解 
决 分 属于 多 个 线程 的 不 同 协 程 之 间 的 异步 通信 问题 。 整 个 子 进程 由 curio 库 事件 循环 驱动 。 

此 外 , 中 央 信 息 处 理 服务 器 采用 ZMA 的 发 布 /订阅 机 制 组 建 消息 总 线 , 实现 对 上 层 应 用 
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模块 提供 数据 的 功能 。ZMQ.PUB 端口 用 于 发 布 消息 ， 可 以 有 任意 数量 的 ZMQ.SUB 端口 用 于 
订阅 和 接收 消息 。ZMQ.PUB 和 ZMQ.SUB 无 需 在 同一 计算 机 上 部 署 ， 且 运行 互补 干扰 。 由 于 
ZMQ 以 上 优点 ， 极 大 地 简化 了 服务 接口 层 的 开发 难度 ， 实 现 了 中 央 信 息 处 理 服 务 器 与 各 应 
用 模块 之 间 的 完全 解 耦 。 


|| TCP-Server 协 程 | | Queue ZMQ.PUB 协 程 | | ZMQ.SUB 协 程 Universal Queue aiomysql 协 程 
| T s | T T 
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1 I 1 

I 


i 
" 
| future.result(msg) 


1 
1 
1 
1 
| 
| | 
节点 发 来 信息 门 awaitputmsg) — | | ZMQ 订 阅 接收 | awaitputmsg) s 
" | 
| 
| T 异步 返回 结果 i E 
| 
| 
| 
| 


”异步 MySQL 
, | : 数据库 交互 
异步 信息 接收 器 i MySQL 异 步 处 理 器 


图 3 中 央 信息 处 理 服 务 器 内 部 时 序 图 
Fig. 3 The internal sequence diagram of the central message handle server 

中 央 信 息 处 理 服 务 器 内 部 组 件 时 序 图 如 图 3。 由 于 组 件 均 为 协 程 ， 组 件 间 均 采 用 异步 方 
式 通 信 , 协 程 逻 辑 执 行 与 上 下 文 切换 由 用 户 精确 控制 , 因此 在 不 占用 更 多 操作 系统 资源 的 前 
提 下 ， 极 大 地 提高 了 服务 器 的 并 行 处 理 能 力 和 数据 的 吞吐 量 。 

实际 运行 中 ， 中 央 信 息 处 理 服务 器 采用 Linux 后 台 和 守护 进程 方式 运行 ， 并 设置 为 开机 自 
启动 ， 从 而 保证 了 程序 运行 更 加 稳定 和 高 效 。 

2.4 应 用 模块 

应 用 模块 主要 负责 数据 的 应 用 与 展示 ,资源 监控 系统 允许 运行 多 个 相互 独立 的 应 用 模块 
完成 不 同 的 功能 。 由 于 ZMQ 消息 总 线 的 应 用 ， 使 中 央 信 息 处 理 服务 器 与 应 用 模块 之 间 彻 底 
解 契 ， 因 此 ， 极 大 地 降低 了 各 种 应 用 模块 的 开发 难度 。 

根据 工程 需求 ， 目 前 资源 监控 系统 提供 3 种 应 用 模块 : 基于 Pyat 的 图 形 界面 模块 、 基 
于 RTS2 系统 的 传感器 设备 (Rts2-sensord) 模 块 和 基于 Django 的 网 站 服务 模块 。 

图 4 为 本 机 图 形 界面 模块 运行 截图 。 图形 界面 实时 显示 各 节点 计算 机 资源 信息 并 以 颜色 
进度 条 的 方式 为 运 维 工程 师 提 供 资源 占用 情况 。 图 4 中 , 01 号 和 02 号 CCD 计算 机 的 硬盘 占 
用 率 超过 80%, 因此 ,图 形 界面 相应 节点 子 界面 的 硬盘 进度 条 变 成 红色 , 以 提醒 观测 者 注意 ， 
从 而 达到 预警 效果 。 


4 


CCDO01 cv — 


CCD02 ou — 


CCD03 c» — CCD04 cu 一 一 一 
CCD05 cv — CCD06 cv 一 -一 
Statistics & Analysis. Close 
Ed 4 图 形 界面 模块 截图 图 5 RTS2 系统 监视 器 截图 
Fig. 4 The screenshot of GUI module Fig. 5 The screenshot of RTS2 monitor 


资源 监控 系统 为 RTS2 框架 预 留 了 传感器 模块 RTS2-Sensord。 将 其 接 入 RTS2 系统 后 , RTS2 
系统 便 可 以 收 到 资源 预警 信息 。 图 5 是 RTS2 系统 监视 器 收 到 预警 信息 的 截图 。 
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架设 于 郭守敬 望远镜 内 网 中 网 站 模块 提供 网 页 浏览 查询 服务 , 允许 观测 者 和 运 维 工程 师 
在 内 网 中 的 计算 机 上 通过 浏览 器 查询 各 节点 资源 信息 数据 。 图 6 为 01 号 CCD 计算 机 的 资源 
信息 页 面 。 其 中 上 半 部 分 已 曲线 图 的 方式 显示 了 该 节点 计算 机 各 种 资源 信息 的 历史 记录 和 趋 
势 ， 并 以 可 设置 虚线 的 形式 提供 预警 功能 。 下 半 部 分 为 该 节点 信息 列表 ， 表 中 分 别 显示 了 信 
JK SE NY [A] (timestamp). CPU 使 用 率 、 内 存 占 用 率 (memory_percentj) 、 硬 盘 使 用 率 
(disk_percent)、 网 络 下 行 速度 (nic_in)、 网 络 上 行 速 度 (nic_out) 等 信息 。 


| Resource Monitor ofLAMOST e ilius 
< cao vr G os 5-2 
nic out cpu -O memdResource Monitor of LAMOST ( CCD01) tt8B^suc«x 
't speed (Kps) pi it (96 


11:29 02-13 
nic in: 13.19 
nic out: 14.54 


cpu: 0.4 
memory: 3.6 


29 ý ‘ 
02-13 02 02-13 02-13 


timestamp cpu memory percent disk percent nic, in nic, out 
2018-02-13 10:54:49 0 36 61.6 4.39 3.21 
2018-02-13 10:54:59 0 36 616 1.33 0.25 
2018-02-13 10:55:10 0 36 61.6 1.07 0.07 
2018-02-13 10:55:20 0 


36 61.6 1.15 0.23 


图 6 网 页 服务 
Fig. 6 Web Service 


3 讨论 
3.1 系统 自身 开销 与 网 络 负载 

资源 监控 系统 软件 运行 自身 也 需要 消耗 部 分 系统 资源 ， 因 此 在 软件 设计 和 开发 过 程 中 ， 
在 保证 可 用 性 的 前 提 下 应 建立 简化 和 优化 代码 。 将 资源 监控 系统 部 署 在 实际 工程 环境 中 , SE 
际 运行 测试 结果 如 下 : 

节点 消息 采集 器 (客户 端 ) 资 源 消 耗 : CPU 占用 不 超过 0.2%， 内 存 不 超过 4KB。 


lamost@localhost:~ 


[lamost@localhost ~]$ ps -e -o'pid,cmd Pepu; rsz' | grep rsmolc.py | grep -v grep 
24622 python2 ./rsmolc.py start 0.0 3768 


中 央 信 息 处 理 服务 器 资源 消耗 : CPU 不 超过 0.5%， 内 存 不 超过 40MB. 


lamost@localhost:~ 


[lamost@localhost ~]$ ps -e -o'pid, che apcha; rsz' | grep resource_mon | grep -v grep 
12354 python3 ./resource_monitor_ 0.0 9648 
12355 python3 ./resource_monitor_ 0.0 30008 
12356 python3 .[resource monitor 0.0 11308 


可 见 ， 本 系统 不 会 对 节点 计算 机 和 中 央 信 息 服务 器 产生 过 大 的 资源 消耗 。 

而 网 络 传输 方面 , 目前 单 节点 信息 采集 器 产生 的 信息 以 字符 串 形式 传输 , 单条 信息 不 超 
过 128 个 字 节 ， 信 息 采 集 周期 默认 值 为 10 s。 因 此 ，100 个 节点 采集 器 每 秒 产生 的 信息 大 小 
不 超过 1280 字 节 ， 即 整个 系统 对 内 网 的 带宽 占用 不 超过 1.25KBps。 未 来 ， 如 果 由 于 单 节点 
信息 量 增多 或 系统 总 节点 数 增加 导致 网 络 带宽 占用 过 多 , 可 以 考虑 放弃 字符 串 采用 二 进 制 数 
据 传 输 。 
因此 , 郭守敬 望远镜 资源 监控 系统 无 论 是 在 自身 资源 消耗 方面 还 是 网 络 负载 方面 , 都 符 
合 当 前 工程 需求 。 
3.2 网 络 通信 架构 : 集中 式 与 分 布 式 的 选择 

目前 ,网 络 通信 主流 架构 主要 分 为 集中 式 设 计 和 分 布 式 设 计 两 大 类 。 集 中 式 设 计 需 要 有 
强大 健壮 的 中 央 服 务 器 作为 整个 通信 系统 的 枢纽 。 优 点 是 技术 成 熟 ， 且 便于 管理 和 维护 。 缺 
点 是 依赖 于 中 央 服 务 器 的 稳定 性 和 处 理 能 力 。 而 分 布 式 则 是 信息 或 功能 分 散在 不 同 的 计算 机 
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上 , 节点 间 协 作 共 同 完成 任务 ， 因此 对 每 台 计算 机 的 性 能 要 求 不 高 。 优 点 是 可 以 极 大 地 降低 
服务 器 的 成 本 。 缺 点 是 程序 设计 更 复杂 ， 协 作 通 信 量 增加 。 
具体 到 本 项 目 ， 虽 然 涉及 到 集群 中 的 计算 机 数量 众多 ， 但 通信 和 量 和 数据 处 理 量 均 很 小 ， 
因此 选择 集中 式 设计 ， 即 “客户 端 -服务 器 -应 用 ”模式 作为 整体 架构 更 为 合理 ， 从 而 避免 了 
分 布 式 中 的 数据 同步 等 问题 ， 降 低 开 发 和 维护 难度 。 
3.3 客户 端 与 服务 器 之 间 通 信 协 议 的 选择 

在 采集 到 信息 之 后 , 客户 端 需要 通过 网 络 将 信息 发 送 给 服务 器 。 网络 信 息 传输 的 实现 可 
以 选择 ， 例 如 : UDP 传输 、TCP 传输 、ACE 通信 库 、ZMQ 通信 库 等 。 采 用 UDP 通信 可 靠 性 
相对 较 差 ， 因 此 和 暂 不 考虑 。 而 ACE 通信 库 是 一 套 完善 的 Ct+ 通 信 库 ， 它 完全 采用 面向 对 象 设 
计 ， 支持 和 采用 多 种 设计 模式 。 但 是 由 于 过 于 庞大 复杂 且 开 发 维护 难度 很 高 ， 因 此 并 不 适合 
本 文 提 到 的 实际 工程 需求 。 采 用 zMO 通信 方式 ( 见 服务 器 内 部 通信 实现 章节 ) 虽 然 使 用 方便 
灵活 但 是 需要 在 各 个 客户 端 安装 ZMQ 库 。 如 前 文 所 述 ， 各 个 节点 硬件 设备 差异 较 大 ， 操 从 
系统 种 类 繁多 ， 如 果 根 据 各 节点 软 硬 件 配置 选择 相应 版 本 的 ZMQ 库 并 进行 安装 ， 不 但 工作 
量 巨 大 、 可 操作 性 很 差 ,而且 不 利于 今后 设备 更 新 和 扩展 。 而 TcP 传输 作为 最 常见 的 底层 通 
信 协 议 ， 各 种 操作 系统 均 自 带 了 其 实现 库 ， 无 需 再 自行 安装 配置 。 因 此 ， 客 户 端 与 服务 器 之 
间 的 通信 采用 TCP 通信 协议 。 
3.4 系统 的 预警 和 分 析 处 理 功 能 扩展 

郭守敬 望远镜 资源 监控 系统 已 初步 完成 ,部署 于 实际 工程 环境 中 能 够 准确 有 效 地 采集 和 
存储 集群 中 各 节点 计算 机 资源 信息 数据 。 但 仍 有 以 下 两 方面 不 足 : 

(1) 在 人 机 交互 预警 方面 ， 如 2.4 节 所 述 ， 目 前 通过 本 机 图 形 界面 资源 条 颜色 ( 绿 、 
WE ZL) 变化 , 以 及 网 页 预警 线 的 方式 为 工作 人 员 提 供 最 基本 提醒 功能 。 未 来 可 以 借鉴 Zabbix 
系统 的 实现 思路 根据 预警 信息 类 型 或 错误 等 级 为 工作 人 员 提 供 邮 件 推 送 、 微 信 消 息 等 功能 ， 
从 而 进一步 提高 系统 的 友好 性 。 

(2) 己 存 储 的 资源 信息 数据 的 后 期 分 析 、 统 计 和 处 理 功能 目前 尚未 完成 。 主 要 原因 在 
于 该 功能 需要 不 断 积累 大 型 望远镜 运行 维护 经 验 。 

不 过 ， 由 于 服务 器 内 部 采用 了 基于 发 布 /订阅 机 制 的 ZzMQ 消息 总 线 技术 , 使 预警 组 件 和 
数据 分 析 处 理 组 件 与 整个 软件 框架 完全 解 厢 ， 极 大 地 降低 了 进一步 开发 的 技术 难度 ， 因 此 ， 
资源 监控 系统 会 不 断 完 善 ， 最 终 为 望远镜 高 效 运行 提供 有 力 的 保障 。 


TH 


4 结束 语 

郭守敬 望远镜 是 由 我 国 自 主 研发 的 目前 世界 上 光谱 获取 率 最 高 的 大 型 天 文 望 远 镜 。 其 内 
部 管理 与 控制 计算 机 庞大 、 节 点 众多 、 种 类 繁杂 ， 本 系统 的 设计 ， 实 时 采集 、 存 储 和 分 析 各 
节点 计算 机 硬件 资源 信息 ， 有 效 地 提高 望远镜 的 运行 稳定 性 和 观测 效率 。 系 统 运行 表明 ， 本 
系统 的 设计 与 研发 是 成 功 的 , 同时 这 样 的 模式 也 为 其 他 大 型 望远镜 的 观测 控制 与 后 期 维护 提 
供 有 价值 的 参考 。 
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LAMOST resource monitoring system based on Python Coroutines 


Technique 


Abstract: The control of modern large-scale astronomical telescopes is generally 


accomplished by multiple independent (or clustered) computers. The performance and efficiency 


of each node computer directly affect the operational stability of the whole telescope. A source 


monitor software system is an import and essential management tool for the operation and 


maintenance of large telescopes. This system can collect and store the hardware resource 


information of each node, and it can further monitor and analyze this information. When 


necessary, the system will provide the observers with warning messages and suggestions in order 


to eliminate hidden dangers and to improving the observational efficiency of the overall 


telescope. Based on the deep analysis of the engineering requirements, we design and develop a 


resource monitor system for LAMOST. The system is implemented using Python language and 
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asynchronous coroutines technology, and provides a variety of human-computer interactive 
functional modules and extension interfaces. We has deployed it in the actual project 
environment and achieved rather effective results. The work of this paper provides rather 
valuable references for managing and maintaining other large telescope. 

Key words: Resource monitor; Asynchronous coroutines; LAMOST ; Telescope operations 


